简介 Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。 安装 apt install ffmpeg pip install -U openai-whisper 使用 指令 whisper video.mp4 whisper audio.flac audio.mp3 除了支持Whisper,还支持faster-whisper;faster-whisper据说能够实现比 Whisper更快的转录功能,同时显存占用也比较小。 blog.csdn.net/gootyking/article/details/134475995 参考 https://zhuanlan.zhihu.com/p/617770448 https://github.com/openai /whisper https://github.com/SYSTRAN/faster-whisper
whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。 语言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp ggml- 这么好的一个模型在.NET 社区有很多封装的项目: 跨平台 Whisper.net: https://github.com/sandrohanea/whisper.net Windows 平台的Whisper :https://github.com/Const-me/Whisper 下面我们体验一下这个开箱即用的工具Whisper,从https://github.com/Const-me/Whisper 下周最新的版本
Whisper是OpenAI开发的自动语音识别系统(语音转文字)。 OpenAI称其英文语音辨识能力已达到人类水准,且支持其它98中语言的自动语音辨识,Whisper神经网络模型被训练来运行语音辨识与翻译任务。 此外,与其他需要联网运行的商业语音识别服务相比,Whisper的独特之处在于其完全在本地运行,无需联网,从而确保了用户个人隐私的安全。 Whisper-WebUI的本地部署,可以通过以下方式进行安装,github主页”jhj0517/Whisper-WebUI“: 如果手头没有公网IP,不用端口映射、不设置路由、网关的情况下,搭配贝锐花生壳就能实现远程访问 生成完成后,复制生成的访问地址,用浏览器访问链接,就可以远程访问Whisper。
作者 | 黄楠 编辑 | 陈彩娴 9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。 对此,在「Whisper 」中,OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上,将弱监督语音识别的数量级扩展至68万小时;同时,研究团队还演示了在这种规模下,所训练模型在转移现有数据集的零射击表现 目前,「Whisper 」已开源,可用于对语音识别方面的进一步研究。 OpenAI 创始人 Ilya Sutskever 对此表示,“终于有一个能理解我说话的可靠的语音识别系统。” 前特斯拉人工智能和自动驾驶部门负责人 Andrej Karpathy 也转发了这一消息称“OpenAI 正处于最好的状态中”。 但对使用 Whisper 上,有不少用户也还存在疑虑。 参考链接:https://openai.com/blog/whisper/ 更多内容,点击下方关注: 扫码添加 AI 科技评论 微信号,投稿&进群:
猫头虎分享:如何在本地使用 openai-whisper 实现音频转文本? 最近很多小伙伴咨询 如何在本地环境使用 OpenAI 的 Whisper 模型把音频文件转换成文本。 准备工具和环境 在开始之前,确保你的本地电脑具备以下条件: Python 环境:Python 3.8 及以上版本 ffmpeg:处理音频所必需的工具 openai-whisper:OpenAI 提供的开源语音识别模型 在终端输入: pip install openai-whisper 如果你的网络不稳定,可以使用国内镖像加速: pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn 下载地址: 前往 HuggingFace,下载对应模型的 .pt 文件: 例:Whisper 模型 - Base 版本:https://huggingface.co/openai/whisper-base 总结与展望 通过以上步骤,你已经成功在本地环境中使用 openai-whisper 模型实现了音频转文本 。
幸运的是,随着人工智能技术的飞速发展,特别是OpenAI Whisper模型的推出,我们有了更加高效、智能的解决方案。 一、OpenAI Whisper模型简介 OpenAI Whisper是一款先进的语音识别模型,它利用深度学习技术,将语音信号转换为文本。 语音识别:利用OpenAI Whisper模型对预处理后的音频进行语音识别,将语音转换为文本。 字幕生成:将识别出的文本按照时间戳进行切割,生成与视频同步的字幕文件。 四、实现代码与示例 以下是一个基于Python和OpenAI Whisper模型生成视频字幕的示例代码: # 安装必要的依赖库 # pip install ffmpeg-python openai-whisper 随着人工智能技术的不断发展,特别是语音识别和自然语言处理技术的不断进步,基于OpenAI Whisper模型自动生成视频字幕的前景广阔。
一、前言 前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识 Whisper模型特征Whisper 是 OpenAI 开源的 ASR 大模型,新手只需记住 3 个核心特点:端到端设计:无需手动处理音频特征(比如传统 ASR 要做的 MFCC 特征提取),直接输入音频就能输出文本 Whisper模型分类Whisper 提供 5 种预训练模型尺寸,新手可简单理解为 “模型越大,越准但越慢、占内存越多”,各尺寸的基础属性如下(新手重点看 “适用场景”):tiny 尺寸:参数量为 39M Whisper与传统ASR的差异维度传统 ASR(如 MFCC+HMM)Whisper 大模型语言支持需单独训练单语言模型原生支持 99 种语言,无需额外适配噪声鲁棒性噪声场景 WER 飙升至 30%+ post_processor.process_transcription(transcribed_text)print(f"处理后: {processed_text}")# 输出: "今天天气很好,我们去公园玩吧一二三"八、总结 OpenAI
Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。 Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。
新的 SOTA Speech2Text 模型(明显优于 Whisper 3),而新的文本转语音模型,允许提示个性和情感。 在 FLEURS 测试里,两个 transcribe 模型的错误率比 Whisper 低多了。 图里比的就是 "词错误率" (WER),WER 越低,模型转录就越准确,性能就越好。 看柱状图,颜色深的柱子是 OpenAI 新模型,浅色的是其他模型,柱子越矮越好。 这次价格良心,跟之前的 Whisper 差不多,mini 版更便宜。 这两套模型下来又为开发提供了新的方向和可能,还是挺有用的: 最后,这个交互网站也不错:https://www.openai.fm/,感兴趣的就去玩玩吧。
Whisper Whisper 整体模型。
github:https://github.com/openai/whisper https://gitcode.com/gh_mirrors/whisp/whisper/overview https ://github.com/jhj0517/Whisper-WebUI 安装Whisper pip install -U openai-whisper 此外你还需要安装ffmpeg。 Openai whisper模型下载链接,包括medium(中型),large-v1、large-v2、large-v3 medium:https://openaipublic.azureedge.net Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的重新实现。 它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。
Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务 OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。 与 OpenAI 的 Whisper-large-v2 相比,756M 版本的 distil-large-v2 参数量减少了一半还多,但实现了 6 倍的加速,而且在准确程度上非常接近 Whisper-large-v2 这是因为通过仔细的数据选择和过滤,Whisper 的稳健性得以保持,幻觉得以减少。 网页版Whisper与Distil-Whisper速度的直观对比。 他们通过复制第一个和最后一个解码器层,从 OpenAI 的 Whisper-medium.en 和 Whisper-large-v2 模型中蒸馏出 2 层解码器检查点,分别取名为 distil-medium.en
Whisper v0.2 这款 Whisper 系列的语音转文字免费软件,本地能用、CPU 也能跑,下面按清单一步步来,保证你半小时内搞定从安装到转文字的全流程。 ✅ 完全免费,没任何套路作为 Whisper 家族的语音转文字免费软件,Whisper v0.2 不用注册账号,不用看广告攒积分,下载后双击就能用,不存在 “免费试用后收费” 的坑。 二、Whisper v0.2 安装清单(3 步完成,不用懂技术) 第 1 步:下载 Whisper 安装包1.下载Whisper语音转文字工具软件:https://pan.quark.cn/s/cfe4c423c6842 第 2 步:解压 Whisper 安装包1.回到桌面,找到刚下的 Whisper 压缩包;2.右键点击压缩包,选 “解压到当前文件夹”(不用改路径,自动生成带 Whisper 图标的文件夹);3.打开文件夹 ,找到后缀 “.exe” 的 Whisper 主程序(图标有 Whisper 字样,很好认)。
简介Whisper 是 OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。 官网地址:https://openai.com/research/whispergithub 地址:https://github.com/openai/whisper? 包括以下几种:语音识别语音翻译口语识别语音活动检测这些任务的输出由模型预测的令牌序列表示,使得单个模型可以代替传统的语音处理管道中的多个组件,如下所示:应用安装openai-whisperopenai-whisper 使用 pip 命令安装:pip install -U openai-whisperffmpegopenai-whisper 需要 ffmpeg 的环境,ffmpeg 是一个开源的跨平台音视频处理工具和框架 ("demo.mp3")print(res["text"])模型调用安装 openai 第三方库,本篇教程使用 1.16.1 版本的 openai:pip install openaidef test_openai_whisper
以太坊的智能合约smart contract实现了分布式逻辑,以太坊的Swarm实现了分布式存储,以太坊的Whisper实现了分布式消息,Whisper将实现智能合约间的消息互通,届时可以实现功能更加复杂的 whisper whisper是一种信息检索协议,它允许节点间直接以一种安全的形式互发信息,并对第三方组织窥探者隐藏发送者和接收者的信息。 这是不依赖于一个中心服务器的通讯管理。 你可能没怎么听到过 Whisper,不过它也是在以太坊生态系统中一项有趣的技术。 它是 Dapps 之间交互的通信协议。 你可以在这里看到关于它的更多内容: https://github.com/ethereum/wiki/wiki/Whisper
OpenAI 这边也在不断进行模型的升级改造。3 月 1 日,OpenAI 官方宣布,开发者现在可以通过 API 将 ChatGPT 和 Whisper 模型集成到他们的应用程序和产品中。 除此以外,OpenAI 还宣布了另一个新的 Whisper API,这是 OpenAI 去年 9 月推出的由人工智能驱动的语音转文本模型,可通过 API 使用。 Whisper API,语音转录文本更便捷 作为 OpenAI 于 2022 年 9 月开源的语音到文本模型,Whisper 已经获得了开发者社区的盛誉,但运行起来却也很难。 参考链接: https://openai.com/blog/introducing-chatgpt-and-whisper-apis https://www.theverge.com/2023/3/1/ 23620783/chatgpt-api-openai-pricing-whisper https://twitter.com/search?
前言 OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。 本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。 openai/whisper-tiny openai/whisper-base openai/whisper-small openai/whisper-medium openai/whisper-large openai/whisper-large-v2 源码地址:Whisper-Finetune 使用环境: Anaconda 3 Python 3.8 Pytorch 1.12.1 Ubuntu 18.04 如下命令,--model参数指定的是合并后的模型路径,同时也支持直接使用Whisper原模型,例如直接指定openai/whisper-large-v2。
没错,OpenAI新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性! 不仅如此,对于不同口音、专业术语的识别效果也是杠杠的! 研究团队 Whisper的研究团队来自OpenAI,共同一作有两位:Alec Radford、Jong Wook Kim。 论文和GitHub链接附在文末,感兴趣的小伙伴们可以自取~ 论文链接: https://cdn.openai.com/papers/whisper.pdf GitHub链接: https://github.com /openai/whisper#approach 参考链接: [1]https://colab.research.google.com/github/openai/whisper/blob/master /notebooks/LibriSpeech.ipynb [2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system
项目地址#https://github.com/openai/whisper 安装环境 # on Ubuntu or Debian sudo apt update && sudo apt install choco install ffmpeg # on Windows using Scoop (https://scoop.sh/) scoop install ffmpeg pip install -U openai-whisper pip install git+https://github.com/openai/whisper.git pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git pip install setuptools-rust 示例代码 import whisper model = whisper.load_model
Whisper-V3、Consistency Decoder 的开源也很给力 OpenAI 的首届开发者大会,实属把大家都震撼到了。 第一个是 Whisper-V3,被公认为目前最好的 OSS 语音识别模型,新版相比 Whisper-V2 有了重大改进。 OpenAI 于 2022 年 12 月发布第一代 Whisper,支持语音识别、语音翻译等能力。 短短不到一年的时间,现在已经进化到 Whisper-V3,值得一提的是,OpenAI 表示不久将推出 API。 项目地址:https://github.com/openai/whisper/ 论文地址:https://arxiv.org/abs/2212.04356 Whisper-V3(也称为 Large-v3